本文介绍了Persian的HMBLOGS语料库,作为一种低资源语言。此语料库已根据波斯博客的空间的一段时间内基于大约15岁的近2000万博客帖子编制的,包括超过68亿令牌。可以声称,此语料库目前是最大的波斯语料库,这些语料库是为波斯语而独立制定的。该语料库以原始和预处理的形式呈现,并且基于预处理的语料库,产生了一些单词嵌入模型。通过提供的模型,将HMBlogs与波斯中可用的一些最重要的公司进行比较,结果表明了HMBLOGS语料库的优势。这些评估还提供了语料库,评估数据集,模型生产方法,不同的高参数甚至评估方法的重要性和影响。除了评估语料库及其产生的语言模型之外,该研究还提供了一个语义类比数据集。
translated by 谷歌翻译